Average word length | # of sentences | Source |
---|---|---|
12.52 | 10 | http://mai.wikipedia.org/wiki/श्रीमद्भगवद्गीता |
13.23 | 12 | http://mai.wikipedia.org/wiki/नेपाल |
13.32 | 14 | http://mai.wikipedia.org/wiki/हनुमाननगर |
13.46 | 10 | http://mai.wikipedia.org/wiki/क्याथलिन_बेट्स |
13.50 | 12 | http://mai.wikipedia.org/wiki/धम्पुस |
13.72 | 58 | http://mai.wikipedia.org/wiki/खतर_काका |
13.99 | 13 | http://mai.wikipedia.org/wiki/तिरहुता |
14.00 | 14 | http://mai.wikipedia.org/wiki/इटाली |
14.04 | 21 | http://mai.wikipedia.org/wiki/मधुबनी_चित्रकला |
14.24 | 10 | http://mai.wikipedia.org/wiki/मिथिला_स्टुडेन्ट_युनियन_नेपाल |
14.58 | 10 | http://mai.wikipedia.org/wiki/लियोनेल_मेस्सी |
14.59 | 19 | http://mai.wikipedia.org/wiki/मदर_टेरेसा |
14.74 | 16 | http://mai.wikipedia.org/wiki/जनकपुर_उपमहानगरपालिका |
14.74 | 15 | http://mai.wikipedia.org/wiki/बिराटनगर |
14.83 | 20 | http://mai.wikipedia.org/wiki/मलाला_युसुफजई |
15.01 | 10 | http://mai.wikipedia.org/wiki/भोलालाल_दास |
15.19 | 30 | http://mai.wikipedia.org/wiki/बच्चा_झा |
15.35 | 22 | http://mai.wikipedia.org/wiki/शिवपुरी_नागार्जुन_राष्ट्रिय_निकुञ्ज |
15.72 | 14 | http://mai.wikipedia.org/wiki/मायानन्द_मिश्र |
15.77 | 13 | http://mai.wikipedia.org/wiki/महेन्द्र_मलंगिया |
15.84 | 10 | http://mai.wikipedia.org/wiki/विश्व_सम्पदा_क्षेत्र |
15.99 | 20 | http://mai.wikipedia.org/wiki/भवनाथ_झा |
16.13 | 12 | http://mai.wikipedia.org/wiki/विकिपिडिया |
16.18 | 13 | http://mai.wikipedia.org/wiki/नोबेल_पुरस्कार |
16.49 | 18 | http://mai.wikipedia.org/wiki/चाणक्य |
17.20 | 12 | http://mai.wikipedia.org/wiki/लक्ष्मीधर |
20.75 | 16 | http://mai.wikipedia.org/wiki/गीता |
Average word length | # of sentences | Source |
---|---|---|
20.75 | 16 | http://mai.wikipedia.org/wiki/गीता |
17.20 | 12 | http://mai.wikipedia.org/wiki/लक्ष्मीधर |
16.49 | 18 | http://mai.wikipedia.org/wiki/चाणक्य |
16.18 | 13 | http://mai.wikipedia.org/wiki/नोबेल_पुरस्कार |
16.13 | 12 | http://mai.wikipedia.org/wiki/विकिपिडिया |
15.99 | 20 | http://mai.wikipedia.org/wiki/भवनाथ_झा |
15.84 | 10 | http://mai.wikipedia.org/wiki/विश्व_सम्पदा_क्षेत्र |
15.77 | 13 | http://mai.wikipedia.org/wiki/महेन्द्र_मलंगिया |
15.72 | 14 | http://mai.wikipedia.org/wiki/मायानन्द_मिश्र |
15.35 | 22 | http://mai.wikipedia.org/wiki/शिवपुरी_नागार्जुन_राष्ट्रिय_निकुञ्ज |
15.19 | 30 | http://mai.wikipedia.org/wiki/बच्चा_झा |
15.01 | 10 | http://mai.wikipedia.org/wiki/भोलालाल_दास |
14.83 | 20 | http://mai.wikipedia.org/wiki/मलाला_युसुफजई |
14.74 | 16 | http://mai.wikipedia.org/wiki/जनकपुर_उपमहानगरपालिका |
14.74 | 15 | http://mai.wikipedia.org/wiki/बिराटनगर |
14.59 | 19 | http://mai.wikipedia.org/wiki/मदर_टेरेसा |
14.58 | 10 | http://mai.wikipedia.org/wiki/लियोनेल_मेस्सी |
14.24 | 10 | http://mai.wikipedia.org/wiki/मिथिला_स्टुडेन्ट_युनियन_नेपाल |
14.04 | 21 | http://mai.wikipedia.org/wiki/मधुबनी_चित्रकला |
14.00 | 14 | http://mai.wikipedia.org/wiki/इटाली |
13.99 | 13 | http://mai.wikipedia.org/wiki/तिरहुता |
13.72 | 58 | http://mai.wikipedia.org/wiki/खतर_काका |
13.50 | 12 | http://mai.wikipedia.org/wiki/धम्पुस |
13.46 | 10 | http://mai.wikipedia.org/wiki/क्याथलिन_बेट्स |
13.32 | 14 | http://mai.wikipedia.org/wiki/हनुमाननगर |
13.23 | 12 | http://mai.wikipedia.org/wiki/नेपाल |
12.52 | 10 | http://mai.wikipedia.org/wiki/श्रीमद्भगवद्गीता |
The problem addressed in this subsection (as well as the results) is similar to 6.4.1.1, but now we focus on average word length instead of average sentence length.
Measuring average word length strongly depends on tokenization. The usual tokenization might split the string “28.06.2005” into five parts “28 . 06 . 2005” of average length two. To avoid this, the number of words is counted as 1 + (number of blanks in the sentence).
select round(avg(length(sentence) / (1+ length(sentence) - length(replace(sentence," ","")))),2) as le, count(sentence) as cnt, source from sentences s, inv_so i, sources so where s.s_id=i.s_id and i.so_id=so.so_id group by source having cnt>=10 order by le limit 30;
6.4.2.2 Average logarithmic word rank for different sources
6.4.2.3 Sources consisting of many / few words with frequency 1
6.4.2.4 Sources with low / high average word length of rare words